la inteligencia artificial puede mentir con certeza
La discusión sobre la inteligencia artificial (IA) está en pleno auge, y no hay un día sin que escuchamos un nuevo análisis sobre sus límites, su evolución rápida o su impacto en el trabajo. Pero hay algo que OpenAI ha revelado recientemente que cambia el juego: las “alucinaciones”, que son respuestas incorrectas generadas con una confianza absoluta, no son errores corregibles, sino una limitación inherente a la tecnología actual.
Este dato es significativo. Después de haber liderado la ola de IA generativa con ChatGPT, la empresa dejó claro que el problema no radica solo en los modelos, sino en cómo los evaluamos y las tareas que les asignamos para entrenarlos. Lo fundamental aquí es lo que premiamos y lo que no en el proceso.
Esto realmente transforma la conversación sobre los riesgos y las expectativas en torno a la IA.
El problema de las alucinaciones
Investigadores han tenido la sospecha durante años de que ciertos errores de los modelos de lenguaje no se pueden resolver simplemente con “más datos” o “más parámetros”. Y, efectivamente, la nueva investigación lo confirma: las alucinaciones surgen porque estos modelos están diseñados para completar patrones de lenguaje, no para verificar la veracidad de la información.
Por ejemplo, en un ejercicio simple: al preguntar cuántas letras “D” tiene la palabra “DEEPSEEK”, modelos avanzados como DeepSeek-V3 o Claude 3.7 fallaron una y otra vez. Algunos dijeron “2”, otros “3”, y algunos incluso se aventuraron a decir “6” o “7”. Ninguno acertó.
Hasta los últimos modelos de OpenAI tienen tasas de error preocupantes. Por citar cifras:
- GPT-2 alucina en el 16% de los casos,
- GPT-3 en el 33%,
- y GPT-4-mini en el 48%.
La conclusión es clara: hay tres razones estructurales que hacen que estos fallos sean inevitables:
- Falta de datos confiables: Si el modelo no tiene la información necesaria, completa los huecos inventando respuestas.
- Tareas fuera de su alcance: Hay preguntas que, con la tecnología actual, ningún modelo puede resolver.
- Complejidad intrínseca: Hasta una IA perfecta podría fallar ante ciertas preguntas simplemente por la naturaleza del desafío.
Pero lo más preocupante es cómo está diseñado el sistema de evaluación.
Un sistema de evaluación que premia la falsa confianza
El hallazgo más inquietante es de carácter cultural. En 9 de cada 10 evaluaciones actuales, los modelos son penalizados si dicen “no sé” y, en cambio, son premiados por dar respuestas incorrectas pero con seguridad. Así que, en este sistema, se favorece la confianza en lugar de la precisión.
Esto impacta directamente en cómo se comportan. Aprenden que es mejor responder algo, sea correcto o no, antes que aceptar la ignorancia. En un entorno donde millones usan IA para tomar decisiones, esto no es un detalle menor; es un riesgo sistémico.
El mensaje del estudio es claro: aunque no podemos eliminar las alucinaciones, sí podemos mitigar su impacto cambiando nuestra forma de evaluar y entrenar a la IA.
¿Qué necesitamos para que la IA sea confiable?
La solución no está en simplemente añadir más datos o entrenar más. Se necesita un nuevo enfoque en la evaluación:
- Recompensar la incertidumbre cuando sea razonable.
- Diseñar métricas que sean más humanas y menos punitivas.
- Incorporar una supervisión constante.
- Medir los impactos reales, no solo el rendimiento estadístico.
No importa qué tan sofisticada sea la tecnología; sin un proceso de evaluación riguroso, el modelo seguirá replicando errores que podrían evitarse.
Con base en lo que hemos observado, propongo siete prácticas esenciales para mejorar la comprensión y evaluación de los modelos de lenguaje:
- Calidad de datos: Entrenar con información limpia y confiable.
- Estructurar datos: Organizar información desordenada en conjuntos útiles.
- Definir tareas con precisión: Un modelo debe saber exactamente qué necesita responder y bajo qué criterios.
- Instrucciones claras y pruebas iterativas: Ser riguroso en el diseño de los prompts.
- Reducir sesgos: Entrenar modelos que no perpetúen desigualdades, algo crítico en aplicaciones sensibles.
- No depender ciegamente de herramientas: Cada modelo tiene su propio campo de aplicación.
- Fomentar una cultura de datos: Sin una comprensión real de los datos, ninguna IA funcionará correctamente.
Realismo sobre la perfección
Aceptar que las alucinaciones no desaparecerán puede ser incómodo, pero es un primer paso hacia una IA más segura y transparente. La clave no está en esperar el modelo perfecto —que sencillamente no existe—, sino en diseñar sistemas que puedan detectar, mitigar y contextualizar esos errores.
Las organizaciones que hoy emplean IA para decisiones cruciales deben entender que estos modelos son poderosos, pero no infalibles. Si no se evalúan correctamente, pueden convertirse en fuentes de riesgo.